查看原文
其他

Whale——来自Airbnb的小众却简单易上手的数据探索工具

过儿 大数据应用 2022-10-18

今日份知识你摄入了么?

🗃️ 首先讲讲,Airbnb的数据发现工具如何改变了我的生活。


在我的职业生涯中,我很幸运地研究过一些有趣的问题:我在麻省理工学院读博士期间研究过河流的数学,在Wayfair研究过提升模型和开源的pylift,在Airbnb实现了针对模型和CUPED改进的新主页。但在所有这些工作中,每天的工作从来都不是光鲜亮丽的——事实上,我经常花大量的时间去寻找、学习和验证数据。虽然这一直是我工作生活的状态,但直到我去了Airbnb,我才意识到这是一个问题,而Airbnb的数据发现工具Dataportal正好解决了这个问题。


  • 我在哪里可以找到{{data}}?Dataportal。

  • 这一栏是什么意思?Dataportal。

  • {{metric}}今天做得怎么样?Dataportal。

  • 生命的意义是什么?可能是Dataportal。


好吧,你懂的。


它只需要几分钟(而不是几小时)就能找到数据并理解它的含义、它是如何产生的,以及如何使用。


我可以把时间花在制作简单的分析或构建新的算法(……或响应随机的数据问题)上,而不是翻阅笔记、编写重复的SQL查询、给我的同事打上懒散的标签,试图重新创建其他人已经创建过的环境。



🤔问题是什么?



我意识到我的大多数朋友都没有这样的工具。


很少有公司愿意投入大量资源来构建和维护像dataportal这样的平台工具。虽然有一些开源解决方案,但它们通常都是为规模化而构建的,如果没有专门的devops工程师,设置和维护就会很困难。


所以我想我要创造一些新的东西。


🐳进入Whale:愚蠢简单的数据发现的工具。



是的,我说的愚蠢的简单就是指愚蠢的简单。



Whale只有两个组成部分:


  1. 一个Python库,它可以提取元数据并将其格式化为markdown。

  2. 用于搜索数据的Rust CLI接口。


就需要维护的后端基础设施而言,你只有一堆文本文件和一个更新该文本的程序。就这样,在像Github这样的git服务器上托管变得很简单。不需要学习新的查询语言,不需要管理基础,不需要备份。每个人都知道git—所以同步和协作是免费的。


让我们进一步了解一下Whale 1.0版本的特性。



🖥️一个功能齐全的基于git的GUI



Whale生来就是坐在像Github这样的git远程服务器上的。它的设置非常简单:定义一些连接,复制我们的Github动作脚本(或者为您选择的CI/CD平台编写一个脚本),你将立即拥有一个基于web的数据发现工具——你可以在Github上直接搜索、查看、记录和共享你的表。


通过github操作生成的样例表存根要获得完整的工作演示,请参见:https://github.com/dataframehq/Whale- bigquery-publicdata



针对仓库快速进行CLI搜索



Whale依靠命令行生存和呼吸,为你的表提供丰富的毫秒级搜索。即使对于数以百万计的表,通过使用一些巧妙的缓存机制和在rust中重新构建后端,我们设法使Whale具有令人难以置信的功能。你不会注意到任何搜索延迟。



🤖自动度量计算 [beta]



作为一名数据科学家,我最不喜欢做的事情之一就是一遍又一遍地运行相同的查询来对我使用的数据进行QA。Whale现在支持使用纯SQL定义指标的能力,这些指标将与元数据收集管道一起调度。只需在表存根中以以下yaml格式定义一个' ' ' metrics块,Whale将自动调度并运行所包含的查询。


```metricsmetric-name: sql: | select count(*) from table```



与Github一起,这意味着Whale可以作为度量定义的轻量级中心真理来源。Whale甚至将这些值与时间戳一起保存在~/中。如果你想要做一些绘图或更深入的探索,可以使用Whale/metrics目录。



未来



在与预发布版本Whale的用户交谈后,我们意识到人们想要更深层的功能。为什么只是一个表格搜索工具?为什么不是度量?为什么不监控?为什么不是SQL运行器呢?虽然Whale v1最初被设想为一个简单的CLI Dataportal/Amundsen配套工具,但它已经发展成为一个功能齐全的独立平台,我们希望看到它成为数据科学家工具带的重要组成部分。


如果你想让我们做点什么,👋加入我们的Slack社区,在Github上公开一个问题,甚至直接在LinkedIn上联系。我们已经有了许多激动人心的功能——Jinja模板、书签、搜索过滤器、Slack提醒、Jupyter集成,甚至是CLI仪表盘——但我们希望你能提供帮助。


Whale是由Dataframe开发和维护的,这是一家我最近有幸与其他人共同创建的初创公司。Whale是为数据科学家设计的,而Dataframe是为数据团队设计的。对于那些希望获得更丰富合作体验的人,请随时联系,我们会将你添加到候补名单中。🙂

原文作者:Robert Yi

翻译作者:过儿

美工编辑:过儿

校对审稿:Dongdong

原文链接:https://medium.com/df-foundation/meet-Whale-the-stupidly-simple-data-discovery-tool-9f847c004b47


往期精彩回顾


美国地方法院已受理第一起针对H-1B工资上涨的诉讼!

警方利用人脸搜索技术即时破案,都因为这家公司兜售的海量面部广告

Apartment List官方数据出炉:冠状病毒如何影响租赁危机?

吴恩达给74岁老父亲发证了!8年完成146门课程,他才是「机器学习先驱」!

网课资源这么多,想学好Coding,还有必要看书吗?




点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课程

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存